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摘要 : 在 传统 服务 计算 研究 工作 中 往往 忽视 数据 
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为 了 在 企业 应 用 负 


持 数 据 资源 共享 和 应 用 协同 ， 本 文 将 
成 、 数 据 驱 动 的 业务 协同 等 问题 。 研 究 成 果 可 用 于 跨 管 
信息 共享 、 综 合集 成 类 系统 特征 数据 的 提取 和 实时 呈现 等 
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虽然 数据 和 业务 流程 在 企业 应 用 集成 系统 中 具有 


但 传统 服务 计算 研究 工作 中 却 往往 忽 
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数据 量 累 积 达 ) 通常 达 TB(102 字 节 ) 甚 至 PB(105 字 节 ) 级 ， 面 临 的 用 户 也 是 大 规模 的 ， 且 
通过 互联 网 进行 协作 的 需求 , 数据 共享 和 数据 流 问 题 是 这 类 应 用 
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文本 数据 , 也 有 来 自 于 Web 的 半 结 构 化 数据 )、 数据 源 动态 加 入 等 数据 密集 型 应 用 的 需求 时 ， 


面临 着 诸多 的 挑战 。 

在 上 述 背景 下 ， 本 文 重点 关注 下 面 的 问题 

1. 与 传统 的 数据 集成 相 比 , 在 互联 网 环境 下 面临 的 用 户 是 大 规模 的 ， 且 用 户 的 集成 
! 谷歌 (Google) 提出 的 一 个 用 以 支持 大 型 数据 集 的 分 布 式 计算 软件 框架 
?一 个 支持 数据 密集 分 布 式 应 用 的 免费 许可 软件 框架 , 由 阿 帕 奇 (一 个 支持 开源 软件 的 美国 非 营利 组 织 ) 开 
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求 具 有 多 样 性 。 如 何 提供 一 种 数据 聚合 与 分 析 的 方法 和 工具 , 来 满足 大 规模 、 多 样 性 的 用 户 
集成 需求 ， 是 一 项 挑战 。 为 最 终 用 户 提供 一 种 简化 的 手段 ， 使 其 能 够 自行 进行 数据 资源 的 集 
成 ,是 解决 这 个 问题 的 一 个 途径 。 这 种 手段 被 称 为 “以 用 户 为 中 心 的 数据 资源 集成 ” 另外 
互联 网 环境 下 的 数据 是 动态 变化 的 ， 而 传统 的 数据 集成 方法 中 ， 无 论 是 “物化 法 ”还 是 “ 虚 
拟 法 ”四 ， 都 难以 实时 反映 数据 的 变化 ， 或 难以 支持 在 运行 时 动态 加 入 新 的 数据 源 。 因 此 ， 
本 文 下 面 着 重 介绍 针对 以 用 户 为 中 心 进行 数据 资源 集成 的 两 方面 相关 的 技术 : 一 方面 是 IT 
系统 数据 资源 的 服务 化 技术 ， 解 决 蜡 构 的 数据 资源 如 何以 统一 的 服务 方式 进行 封装 和 抽象 。 
另 一 方面 是 以 用 户 为 中 心 的 数据 服务 组 合 技术 , 解决 数据 资源 封装 为 数据 服务 之 后 , 如 何以 
用 户 为 中 心 ， 通 过 对 这 些 服务 的 组 合 完成 动态 数据 资源 的 集成 。 


2. 在 云 计算 环境 下 ,企业 业务 流程 相关 数据 呈现 爆炸 性 产生 和 积累 ， 如 何 从 这 些 复杂 
多 样 的 业务 流程 和 爆炸 性 增长 的 数据 中 ,及 时 有 效 地 获取 企业 信息 系统 的 整体 关键 数据 ， 从 
而 把 握 企业 命脉 ， 是 一 项 挑战 性 的 任务 。 传 统 工作 流 和 服务 组 合 的 做 法 ,往往 是 以 控制 流 为 
中 心 ， 无 论 是 流程 的 建 模 还 是 执行 阶段 ， 只 关注 流程 中 的 输入 /输出 等 流程 执行 所 必需 的 数 
Hi, 而 忽视 了 对 系统 整体 造成 影响 的 数据 的 建 模 以 及 运行 时 及 时 获取 。 例 如， 传统 的 业务 流 
程 建 模 方 法 聚焦 于 对 以 下 元 素 进行 建 模 : 活动 的 执行 者 、 执 行 时 间 、 地 点 、 活 动 完成 的 状态 
等 ， 却 忽视 了 对 活动 执行 后 产生 的 影响 、 效 果 ， 活 动 执行 涉及 的 信息 等 元 素 的 显 式 建 模 。 而 
这 些 元 素 往 往 才 是 企业 真正 关心 的 。 例 如 ,在 一 个 应 急 场景 中 ， 一般 情 况 下 ， 指 挥 中 心 难以 
详细 了 解 千差万别 的 应 急事 件 处 理 流程 ,指挥 中 心 更 需要 重点 掌握 当前 应 急 资源 的 分 布 、 事 
件 处 理 的 结果 、 与 事件 处 理 有 关 的 辅助 决策 信息 等 。 而 这 些 元 素 并 非 活动 的 输入 /输出 ， 在 
传统 的 业务 流程 管理 系统 中 ,没有 提供 对 它们 事先 进行 建 模 的 手段 ,在 流程 运行 时 ， 也 无 法 
及 时 方便 地 获取 这 些 数据 。 因 此 ， 和 迫切 需要 一 种 新 的 业务 流程 建 模 方法 ， 对 活动 和 活动 相关 
的 关键 数据 进行 统一 建 模 ， 支 持 在 业务 流程 不 断 变化 的 情况 下 ， 有 效 对 关键 数据 进行 监控 。 
此 外 , 在 流程 执行 过 程 中 ， 当 监控 到 企业 关键 数据 发 生变 化 时 ， 也 很 可 能 需要 根据 关键 数据 
的 实际 情况 由 人 来 干预 ， 进 行 临 机 决策 ， 临 时 改进 业务 流程 或 者 发 出 警告 等 。 


针对 上 述 问题 本文 将 着 重 讨论 云 计算 环境 下 的 数据 资源 服务 化 、 以 用 户 为 中 心 的 数据 
服务 组 合 、 数 据 驱 动 的 业务 流程 建 模 等 技术 。 下 面 首先 对 学 术 界 相关 研究 进行 分 类 探讨 ， 然 
后 以 红 十 字 会 应 急 物 资 管理 的 一 个 简化 场景 为 例 ， 探 讨 我 们 的 工作 及 其 运用 。 


O 2 IT 系统 数据 资源 的 服务 化 技术 


IT 系统 的 数据 资源 具有 不 同 的 类 型 ， 包 括 网 页 、 数 据 库 和 软件 模块 等 。 在 这 些 资源 中 ， 
将 软件 模块 封装 为 服务 是 最 为 常见 的 。 当 前 , 已 经 有 了 很 多 研究 成 果 和 软件 工具 来 帮助 完成 
这 一 任务 。 例 如 ， 阿 帕 奇 (Apache， 详 见 注 20 组 织 开发 的 开源 项 目 Axis 就 能 很 容易 地 帮 
助 用 户 开发 基于 Java 对 象 的 SOAP3 服 务 。 无 论 是 对 网 页 进行 服务 化 ， 还 是 对 数据 库 进 行 服 
务 化 , 它们 的 实质 都 在 于 能 够 根据 客户 端的 请 求 抽取 相应 的 资源 信息 , 将 这 些 信 息 转 换 为 预 
先 定义 的 消息 格式 (如 SOAP 服务 采用 的 SOAP 消息 ), 并 同时 作为 响应 消息 返回 给 客户 端 。 


对 于 互联 网 上 的 HTML 网 页 和 Web 数据 库 资源 ， 由 于 其 服务 资源 结构 化 特性 差 ， 难 以 
直接 将 其 与 其 他 资源 进行 组 合 , 因此 , 需要 提供 一 个 手段 文 持 最 终 用 户 将 HTML 网 页 和 Web 
数据 库 服务 形式 存在 的 资源 封装 成 易于 组 合 的 KML 服务 ， 即 “网 页 信息 资源 的 服务 化 ”。 
这 类 服务 可 以 看 成 一 类 特定 形式 的 包装 器 (Wrapper) 申 ， 用 于 从 网 页 中 抽取 出 数据 并 组 装 


tr ~ 
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3 Simple Object Access Protocol 简单 对 象 访问 协议 
^ HyperText Markup Language， 超 文本 标记 语言 
5 Extensible Markup Language， 可 扩展 标记 语言 
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成 XML。 关 于 包装 器 的 自动 与 半自动 构造 ， 在 Web 信息 抽取 领域 已 经 开展 了 大 量 的 研究 工 
作 ， 关 于 这 些 工作 的 详细 介绍 可 在 综述 文献 "中 找到 。 根 据 用 户 是 否 参 与 包装 器 的 构造 过 
程 ， 当 前 的 研究 工作 可 以 分 为 用 户 无 监督 学 习 的 方法 和 用 户 《〈 半 ) 监督 学 习 的 方法 两 类 。 在 
我 们 的 工作 中 ,面向 的 使 用 者 是 大 量 不 具备 编程 知识 的 普通 用 户 , 而 现 有 的 包装 器 构造 方法 
对 最 终 用 户 的 特点 以 及 他 们 的 个 性 化 需求 缺少 考虑 。 因 此 , 我们 要 解决 的 问题 是 ， 如 何 建立 
允许 用 户 充 分 表达 其 个 性 化 需求 的 、 高 效 、 健 壮 、 高 适应 的 网 页 信息 资源 服务 化 机 制 ， 支 持 
最 终 用 户 通过 简单 的 “浏览 、 选 定 、 配 置 ”操作 即 可 完成 资源 的 服务 化 。 


互联 网 上 的 资源 还 以 其 他 形式 存在 ,例如 Open API 和 Web 服务 等 。 这些 服务 具有 不 同 
的 接口 描述 方式 或 者 没有 显 式 的 接口 描述 , 服务 调用 的 方式 也 不 同 。 这 些 异 构 性 为 组 合 这 些 
不 同形 态 的 服务 带 来 了 极 大 的 障碍 。 屏蔽 不 同 服务 之 间 的 差异 性 , 为 用 户 提 供 一 个 一 致 的 服 
务 模型 在 某 些 场 合 下 是 必要 的 ， 这 一 过 程 通常 被 称 为 “服务 一 体 化 ”。 针 对 服务 的 一 体 化 ， 
工业 界 已 经 有 多 种 产品 出 现 。 其 中 最 有 代表 性 的 是 Oracle 的 AquaLogic 数据 服务 平台 时。 该 
平台 的 主要 功能 为 : 将 各 种 异 构 的 数据 资源 包装 为 XML 数据 服务 。 其 具体 实现 机 制 为 : 通 
过 考察 异 构 数 据 源 的 元 数据 (如 关系 数据 库 的 SQL 元 数据 或 Web 服务 的 WSDL7)， 自 动 生 
成 一 到 多 个 物理 的 数据 服务 ， 使 数据 源 的 数据 能 够 以 XML 格式 表达 出 来 。 其 中 ， 对 于 关系 
数据 库 ， 每 个 表 或 视图 能 够 生成 一 个 数据 服务 ， 其 中 的 每 一 行 数据 表达 为 XML; 对 于 Web 
服务 ， 每 个 Web 服务 操作 返回 类 型 能 够 生成 一 个 数据 服务 ， 其 数据 操作 由 Web 服务 的 操作 
实现 ， 其 他 数据 源 类 型 也 可 能 通过 类 似 的 机 制 形成 数据 服务 。 


除了 AquaLogic 数据 服务 平台 ， 还 有 WSO28 的 Data Services Server 也 支持 类 似 功 能 ， 
并 可 将 关系 数据 库 ，Excel Spreadsheet, Google Spreadsheet 以 及 CSV? 等 格式 的 数据 源 作 为 
数据 服务 发 布 。 


尽管 已 经 出 现 了 这 些 针 对 数据 资源 的 服务 化 产品 , 但 是 数据 服务 的 标准 仍然 不 统一 
虽然 各 个 厂商 为 自己 的 产品 制订 了 标准 , 但 是 不 同 广 商 的 产品 所 生成 的 数据 服务 仍然 难以 互 
操作 。 


3 ”以 用 户 为 中 心 的 数据 服务 组 合 技术 


以 用 户 为 中 心 的 数据 服务 组 合 大 体 可 分 为 三 类 工作 : 可 视 化 语言 、 可 视 化 数据 流 编程 以 
及 电子 表格 (Spreadsheet) 编程 。 下 面 ， 分 别 对 它们 进行 介绍 。 


|l. 可视化 语言 


可 视 化 语言 类 相关 工作 的 特点 是 : 为 用 户 提 供 一 个 可 视 化 的 操作 环境 , 通过 接受 用 户 在 
该 环境 中 的 各 种 操作 (包含 对 可 视 化 控件 的 拖 搜 以 及 键盘 输入 )， 生 成 操作 数据 资源 的 脚本 
语言 ， 并 利用 该 语言 建立 数据 资源 的 组 合 视 图 。 在 可 视 化 语言 类 的 工作 中 ,操作 数据 资源 的 
脚本 语言 的 设计 与 生成 是 问题 的 核心 。 


这 一 类 相关 工作 的 典型 例子 包括 AquaLogic、Liquid DataP!, XQBEU?., Xingl!l^5, 
AquaLogic 为 用 户 提供 了 工作 区 界面 。 在 该 界面 上 ， 用 户 可 以 选择 先前 通过 数据 资源 服务 化 
生成 的 源 数据 服务 ,， 同时 ,构建 一 个 目标 数据 服务 , 通过 连 线 设置 源 数据 服务 与 目标 数据 服 
务 的 对 应 关系 ， 实 现 数据 映射 ， 并 最 终生 成 操作 这 些 数据 服务 的 XQuery 代码 。Liquid Data 


$ Structured Query Language， 结 构 化 查询 语言 
7 Web Services Description Language, Web 服务 描述 语言 
8 一 个 开源 应 用 软件 开发 公司 


? Comma Separated Values， 带 号 分 隔 文本 文件 〈 亦 有 译 成 < 逗号 分 隔 ”"、“ 运 号 分 隔 型 取 值 ?等 ) 
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与 AquaLogic 类 似 ， 其 主要 区 别 在 于 : Liquid Data 允许 数据 服务 与 XML 文档 混合 ， 即 可 以 
把 静态 数据 加 入 进来 但 是 ， 如 果 用 户 手 工 编辑 了 该 工具 自动 生成 的 XQuery 代码 ， 则 不 可 
再 次 使 用 可 视 化 视图 ， 而 AquaLogic 支持 双向 编辑 。 


可 视 化 语言 类 工作 的 缺点 有 如 下 两 方面 : 首先 ,用 户 的 操作 与 操作 效果 是 分 离开 的 ， 用 
户 难 以 在 操作 过 程 中 随时 看 到 自己 的 操作 所 带 来 的 数据 变化 ; 其 次 , 各 种 可 视 化 语言 对 数据 
资源 和 数据 操作 的 表示 缺乏 统一 的 原则 , 用 户 对 任何 一 种 可 视 化 的 表达 方式 都 要 进行 单独 学 
His 
2. 可视化 数据 流 编 程 

可 视 化 数据 流 编程 相关 工作 的 特点 是 : 由 用 户 构造 数据 流 , 该 数据 流 以 数据 服务 为 源头 

(source)， 并 经 过 一 系列 的 数据 加 工 与 变换 最 终 聚 集 到 一 个 数据 接收 装置 (sink) 中 ， 通 


过 该 数据 流 的 构造 实现 数据 资源 的 集成 。 其 中 , 数据 流 以 及 数据 加 工 与 变换 都 是 以 图 形 化 的 
方式 表示 的 ， 以 便 用 户 理解 。 


这 一 类 相关 工作 的 典型 例子 包括 Yahoo Pipes!!! IBM Damia?, VINCA4Science! “b 
> 及 Marmite05 等 。Yahoo Pipes 是 一 种 较 有 影响 力 的 可 视 化 数据 流 编程 环境 。 它 向 用 户 提供 了 
O 导入 数据 、 通 用 数据 操作 符 、 字 符 串 操作 和 数字 操作 等 不 同 的 操作 模块 ， 用户 在 工作 区 内 可 
以 拖 搜 这 些 模块 ， 通 过 管道 (pipes) 连接 这 些 模块 ， 并 在 模块 中 设置 数据 加 工 与 变换 的 细 
节 ， 从 而 实现 数据 从 RSS/ATOM/REST 等 数据 服务 流出 ， 经 过 加 工 和 变换 ， 最 终 输 出 给 用 
户 的 全 过 程 。 与 Yahoo Pipes 相 比 ，IBM Damia 是 一 种 类 似 的 工作 ， 其 特点 在 于 支持 更 多 的 
数据 服务 形式 ,并且 对 数据 操作 模块 进行 了 归 类 (包括 Augment( 扩 充 )/Merge( 合 并 )/Filter( 过 
滤 )/Sort( 排 序 )/ Group( 编 组 )/Union( 联 合 )/Transform( 变 换 )/Publish( 发 布 ) 等 8 类 模块 )， 并 将 各 
种 多 样 化 的 操作 向 这 些 有 限 的 操作 模块 进行 集中 ， 以 增进 用 户 操作 的 一 致 性 。 


可 视 化 数据 流 编程 有 如 下 两 个 缺点 : 首先 , 与 可 视 化 语言 类 似 ,， 用户 的 操作 与 操作 效果 
仍然 是 分 离开 的 ， 用 户 难 以 在 操作 过 程 中 随时 看 到 自己 的 操作 所 带 来 的 数据 变化 ， 其 次 ， 即 
使 实现 较为 简单 的 数据 资源 整合 , 如果 涉 及 的 数据 资源 或 数据 操作 较 多 , 会 导致 数据 流 非 党 
复杂 ， 影 响 用 户 的 正常 使 用 。 


T 3. ”电子 表格 (Spreadsheet) 编程 
o 电子 表格 (Spreadsheet) 编程 相关 工作 的 特点 是 : 为 用 户 提供 一 个 类 似 于 Excel 电子 表 


格 的 操作 界面 , 在 这 个 界面 里 , 数据 资源 以 表格 形式 呈现 。 用 户 直 接 在 表格 上 对 数据 进行 增 、 
删 、 改 等 操作 ， 对 于 比较 复杂 的 数据 操作 ， 将 其 分 割 为 若干 可 组 合 、 可 重复 使 用 的 小 操作 ， 
用 户 进行 每 步 操作 之 后 能 立即 观察 到 该 操作 带 来 的 数据 变化 。 


这 一 类 相关 工作 的 典型 例子 包括 SheetMusiq 9, AMICO", SpreadATOR'* ^£, 7r 
SheetMusiq 中 , 研究 人 员 在 二 维 表 上 构造 了 一 种 电子 表格 代数 , 为 了 在 二 维 表 上 表达 复杂 的 
数据 对 象 ， 设 计 了 分 组 〈group) 代数 操作 ， 用 于 在 数据 上 建立 递归 的 分 组 关系 ; 通过 其 他 
代数 操作 文 持 对 这 种 分 组 数据 的 查询 ， 并 证 明 其 表达 能 力 相 当 于 单 块 SQL 语句 ;另外 ， 还 
特别 支持 用 户 对 查询 的 修改 ， 即 通过 改变 先前 的 操作 实现 对 数据 查询 结果 的 修改 。 


这 一 类 工作 的 优点 是 通过 直接 在 表格 上 操作 数据 资源 ， 使 得 用 户 能 随时 查看 操作 结果 ， 
相 比 于 可 视 化 语言 和 可 视 化 数据 流 编程 ， 这 是 一 个 巨大 的 进步 。 另 外 ， 由 于 电子 表格 是 用 户 
熟悉 的 操作 界面 , 用 户 不 必 进 行 特殊 的 学 习 过 程 就 可 以 实际 操作 ,从 而 给 用 户 带 来 了 诸多 方 
便 。 但 是 该 类 工作 也 有 一 定 的 局 限 性 : 由 于 电子 表格 用 二 维 表 表 示 数 据 ， 对 于 有 内 套 结构 的 
复杂 数据 的 表示 就 比较 困难 , 而 且 通 过 二 维 表 上 的 操作 建立 较为 复杂 的 表达 能 力 容易 让 用 户 
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难以 理解 。 如 图 
履 盖 的 背景 网 格 为 笔者 所 加 ， 以 便 读 者 到 
不 辅 以 其 他 手段 ， 二 维 表 在 表达 复杂 的 数据 关系 时 


针对 二 维 表 的 局 限 性 , 有 人 提出 了 嵌 套 表 与 电子 表格 结合 的 数据 资源 集成 方法 。 该 方法 
借鉴 了 霸 套 关系 代数 中 的 撕 套 表 作为 数据 资源 的 表示 手段 , 并 在 嵌 套 表 之 上 建立 各 种 数据 操 
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1(a) 所 示 ， 这 是 SheetMusiq 对 一 张 数据 表 进 行 了 分 组 操作 后 的 结果 ， 表 上 
LE 解 分 组 操作 的 含义 。 从 这 个 简单 的 例子 可 见 ， 如 果 


有 先天 的 欠缺 。 


作 ， 实 现 来 源 不 同 的 数据 资源 的 集成 。 图 1(b) 是 图 1 


这 个 表 中 可 以 清明 
的 数据 操作 《〈 如 藤 套 查询 ) UB. WEK 


(DARRA RERE R. E 


f 地 看 出 数据 的 分 组 关系 。 除 此 之 外 ， 相 比 于 二 维 表 , 在 幅 套 表 上 表达 复杂 
年 为 数据 资源 的 表示 结构 ， 通 过 与 电子 表格 


的 结合 ， 有 希望 建立 起 用 户 友好 的 、 表 达能 力 强 的 数据 资源 集成 手段 。 


Model e0 
Year el 
Condition e2 
ID | Model| Price | Year| Mileage | Condition ID | Price |Mileage 
872| Jetta |$15,000|2005| 50,000 |Excellent Jetta |2005| Excellent | 872 |$15,000 | 50,000 
901! Jetta |$16,000/2005| 40,000 'Excellent 901 |$16,000| 40,000 
304| Jetta |$14,500|2005| 76,000 |Good Good | 304 [$14,500 | 76,000 
723! Jetta |$17,500|2006| 39,000 'Excellent 2006 | Excellent | 723 |$17,500| 39,000 
725| Jetta |$18,000|2006| 30,000 |Excellent 725 |$18,000| 30,000 
423| Jetta |$17,000/2006| 42,000 |Good Good | 423 |$17,000| 42,000 
132| Civic |$13,500|2005| 86,000 |Good Civic |2005| Good | 132 |$13,500| 86,000 
879! Civic |$15,000/|2006| 68,000 |Good 2006| Good | 879 |$15,000| 68,000 
322| Civic |$16,000|2006| 73,000 |Good 322 |$16,000| 73,000 
(a) SheetMusiq 中 的 一 个 数据 表 例 子 (b) 对 应 的 俯 套 表格 形式 
图 1. SheetMusiq MKEK PIT 
综合 以 上 对 相关 工作 的 调查 与 分 析 ， 我 们 发 现 ， 电 子 表格 提供 了 较为 直观 的 操作 模式 。 


而 对 于 二 维 表 难以 表达 的 数据 对 象 ， 嵌 套 表 是 一 种 有 效 的 表达 形式 。 因 此 ， 电 子 表格 编程 ， 


特别 是 嵌 套 表 与 电子 表格 编程 的 结合 ， 提 供 了 实现 有 


4 数据 驱动 的 业务 流程 建 模 技术 


针对 数据 驱动 的 业务 流程 建 模 , 学术 界 近 年 来 开展 了 一 些 研究 。 传统 的 流程 协作 的 建 模 


方法 ， 例 如 


“私有 工作 流 ” 
构 的 工作 流 ) 的 约束 ， 整 体 性 较 强 ， 


昌 户 为 中 心 的 数据 服务 组 合 的 良好 途径 。 


范 德 阿尔 斯 特 CVan der Aalst) 5 的 对 等 网 络 (P2P) 方法 能 够 保证 参与 组 织 的 
(单个 自治 机 构 内 部 的 工作 流 ) 很 好 地 满足 “公共 工作 流 ”( 涉 及 多 个 自治 机 


和 村 别 适 用 于 边界 确定 和 合作 伙伴 相对 稳定 的 环境 。 由 于 


该 方法 预先 定义 了 流程 之 间 的 交互 关系 ， 当 需求 有 变动 或 新 的 组 织 需 要 加 入 进来 时 , 则 首先 


需要 修改 “公共 工作 
法 没有 消除 公共 工作 流 与 私有 流程 之 刘 


注册 库 中 ; 然后 ,在 
所 扮演 的 角色 和 职责 ; 最 后 通过 中 间 件 的 支持 来 实现 流程 之 间 的 相互 协作 , 并 对 协作 的 过 程 


gs» 


Y » 


e ”协作 是 基于 


进行 监控 。 这 利 


[方式 的 优点 是 : 


治 机 构 已 有 的 业务 流程 ， 自 治 机 构 的 自主 性 更 强 ; 


再 根据 “公共 工作 流 ” 来 重新 对 “私有 工作 流 ” 进 行 限 定 。 该 方 
j 的 依赖 关系 ， 无 法 动态 地 支持 合作 伙伴 的 加 入 和 退 
出 。 与 上 述 对 等 网 络 方法 相反 ，CrossFlowF0、DynaFlowP 等 工作 普遍 采用 自 底 向 上 的 处 理 
方式 。 处 理 过 程 可 概括 为 : 首先 , 将 私有 工作 流 中 需要 对 外 提供 的 任务 节点 发 布 到 一 个 公共 
E 册 库 中 匹配 合作 伙伴 ， 并 形成 协作 策略 以 描述 合作 伙伴 在 协作 


公共 六 


e ”自治 机 构 之 间 可 以 直接 进行 交互 协作 ， 无须 借助 于 公共 流程 ， 灵 活性 更 强 ， 能 较 好 
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地 适应 需求 的 动态 变化 。 


尽管 有 这 些 优点 , 但 是 这 种 方式 仍然 存在 依赖 特定 流程 建 模 语 言 、 依 赖 特定 的 软件 系统 
等 不 足 。 随 着 Web 服务 的 出 现 ， 万 维 网 联盟 (World Wide Web Consortium, W3C) 提出 了 
支持 对 等 网 络 协作 的 Web 服务 编排 定义 语言 WS-CDL 1.08 4, 但 是 该 方法 内 考虑 了 以 活动 为 
中 心 描述 流程 之 间 的 依赖 ， 不 能 支持 流程 运行 过 程 中 实时 地 监控 关键 数据 。 


2005 年 ， 范 德 阿尔 斯 特 提出 了 一 个 支持 灵活 的 业务 流程 的 编程 范 型 Case handling""!, 
这 种 编程 范 型 是 建立 在 数据 对 象 作为 流程 基本 元 素 的 基础 上 的 。Case Handling 提供 数据 对 
象 建 模 。 一 个 数据 对 象 是 一 组 复合 信息 的 抽象 。 所 谓 复合 信息 是 指 具 有 一 系列 不 同性 质 或 属 
性 的 事物 ， 仅 有 单个 值 的 事物 (例如 ， 宽 度 ) 不 是 数据 对 象 。 数 据 对 象 通过 映射 (mapping ) 
建立 和 外 部 数据 源 的 映射 关系 ， 并 通过 表格 (Forms) 来 呈现 。 “Case” 可 以 看 作 一 个 流程 实 
例 ， 通 过 建立 数据 对 象 和 活动 的 联系 ， 将 数据 对 象 和 Case 关联 起 来 ， 从 而 在 Case 运行 的 过 
程 中 ， 人 允许 查看 所 有 与 流程 实例 关联 的 数据 对 象 。 在 数据 对 象 中 可 以 定义 事件 -条 件 -动作 
CEvent-Condition-Action; ECA) 规则 对 Case 进行 触发 ， 从 而 支持 不 同 Case 之 间 的 协同 。 
Case Handling 3x ff Case 运行 时 的 监控 , 其 中 包括 监控 Case 中 活动 的 执行 情况 和 所 有 数据 对 
象 的 信息 。 其 中 Case 的 状态 由 所 有 数据 对 和 象 的 状态 决定 。 这 个 工作 进一步 支持 了 以 数据 为 
中 心 的 流程 协作 ， 但 是 在 Case Handling 中 ， 数 据 对 象 的 数据 源 无 法 接 入 Web 上 的 信息 源 ， 
缺少 数据 分 析 和 复杂 事件 处 理 的 功能 ， 使 得 流程 协作 的 能 力 受 到 限制 。 


在 跨 域 分 布 环境 下 的 应 用 协同 往往 需要 很 多 子 流程 进行 协作 。 在 运行 时 , 流程 结构 可 能 
随时 改变 。 如 果 单 纯 依 赖 手工 方式 进行 修改 ， 则 可 能 容易 出 错 ， 并 且 由 于 修改 者 缺少 深刻 流 
程 知识 而 无 法 发 现 全 部 的 依赖 ， 导 致死 锁 、 延 迟 ， 阻 得 了 整个 流程 的 执行 。 为 此 ， 称 勒 CD. 
Müller) 提出 了 COREPRO 方法 多 ， 支 持 定义 复杂 的 数据 结构 ， 并 且 给 出 了 数据 驱动 的 流程 
结构 自动 变换 的 方法 。 该 方法 减少 了 手工 方式 改变 流程 结构 的 工作 量 , 保证 流程 之 间 正 确 协 
作 。 但 是 他 们 的 方法 上 只 适合 解决 简单 流程 之 间 的 协作 , 缺少 支持 复杂 流程 类 似 业 务 过 程 执行 
语言 (Business Process Execution Language, BPEL) 的 过 程式 描述 ， 并 且 没 有 业务 活动 监 
控 的 功能 。 


以 IBM HIRIK CR. Hull》 久 为 代表 的 一 些 学 者 ， 进 一 步 意 识 到 结合 数据 和 流程 在 流程 
协作 中 的 重要 作用 ， 提 出 了 以 Artifact 作为 流程 协作 的 基本 构建 模块 。 这 里 Artifact 是 与 业 
e 务 相关 的 概念 实体 ， 典 型 的 Artifacts 包括 购物 订单 ， 商 品 发 票 ， 装 船 单 ， 保 险 索赔 单 ， 客 户 

交互 的 历史 信息 等 等 。 他 们 还 给 出 了 以 Artifact 为 中 心 的 业务 流程 建 模 方法 。 该 方法 通过 
Artifact 来 集成 异 构 业 务 流程 ， 文 持 跨 域 的 业务 流程 。Artifact 需要 领域 专家 建 模 ， 它 的 信息 
模型 对 达到 业务 目标 的 关键 数据 进行 建 模 ， 它 的 “ 宏 生命 周期 ”(Macro-lifecycle〉 对 公共 业 
务 流程 的 结构 (Schema〉 进行 建 模 。 目 前 有 两 种 生命 周期 描述 方法 ， 一 种 是 基于 状态 机 的 
方法 ， 另 一 种 是 基于 声明 式 的 方法 。Artifact 和 服务 的 关联 有 两 种 方式 : 一 种 是 通过 过 程 描 
述 进 行 关 联 , 把 服务 关联 到 Artifact 的 状态 变迁 ; 另 一 种 是 通过 声明 式 的 业务 规则 进行 关联 。 
在 部 署 时 ， 引 擎 根据 这 种 Artifact 和 服务 的 关联 生成 描述 服务 组 合 结果 的 业务 运行 模型 
(BOM)。 在 运行 时 ， 用 户 可 以 实时 查看 关键 性 能 指标 (Key Performance Indicator, KPI) 的 
数据 变化 。 这 里 也 可 以 在 关键 性 能 指标 上 定义 触发 规则 来 改进 业务 流程 或 生成 警告 。 这 种 方 
法 从 根本 上 改变 了 流程 建 模 的 方式 , 能 够 解决 跨 域 的 流程 异 构 问题 , 该 方法 需要 领域 专家 为 
Artifact 建 模 以 及 为 Artifact 和 服务 之 间 建 立 关 联 ， 对 领域 专家 的 建 模 能 力 要 求 较 高 。 
上 述 工作 在 跨 域 的 流程 协作 中 都 给 出 了 各 自 的 方法 或 架构 。 从 发 展 的 趋势 上 看 , 解决 方 
法 正 从 集中 式 编排 发 展 到 分 散 式 编排 ,从 以 活动 为 中 心 发 展 到 以 数据 为 中 心 , 从 预先 编排 发 
展 到 临 机 编排 。 在 这 种 趋势 下， 研究 一 种 分 散 的 、 数 据 驱动 的 、 文 持 临 机 编排 的 业务 流程 建 
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模 是 一 件 有 意义 的 事情 。 
5 ”我 们 的 工作 


下 面 结合 应 急 物 资 管理 领域 的 一 个 应 用 场景 说 明 我 们 的 工作 及 开发 的 原型 系统 ,应 急 物 
资 管理 包括 应 急 物 资 的 需求 分 析 、 筹 措 、 储 存 、 保 障 运输 、 配 送 和 使 用 直人 至 消耗 全 过 程 的 管 
理 。 应 急 物资 管理 的 特征 包括 : 突 发 性 、 不 确定 性 持续 时 间 、 影 响 范围 、 强 度 大 小 )、 强 
时 效 性 和 全 面 参与 性 (例如 , 不 可 能 指望 由 哪 一 个 物流 中 心 单独 实现 全 部 保障 ,需要 众多 的 
物流 中 心 、 物 流 企业 在 政府 特别 机 构 的 组 织 下 来 共同 参与 完成 )。 下 面 我 们 以 某 地 区 发 生地 
震 后 的 应 急 物 资 管理 为 场景 来 详细 进行 说 明 。 


5.1 场景 描述 


2010 年 某 天 ， 某 偏远 山区 发 生地 震 。 该 地 红 十 字 会 将 负责 购买 、 募 集 、 管 理 及 分 发 帐 
篷 、 方 便 面 和 水 等 救灾 物资 。 应 急 物 资 调配 是 一 个 复杂 的 、 涉 及 多 部 门 协同 的 业务 流程 。 本 
设计 将 从 中 选取 一 个 片段 并 经 过 简化 , 来 分 析 业 务 需 求 和 可 能 遇 到 的 问题 。 该 简化 的 场景 描 
> 述 如 下 : 
二 Mx: 灾情 发 生 后 ， 红 十 字 会 应 急 办 公 室 负责 指挥 整个 救灾 过 程 。 它 首先 派遣 救援 部 门 
ON 赶赴 灾区 了 解 灾情 ， 救助 灾 民 ， 并 根据 灾情 进展 上 报 需要 的 救灾 物资 。 然 后 ， 应 急 办 将 通知 
备 灾 部 门 ， 根据 灾情 需要 出 库 救灾 物资 。 最后， 应 急 办 将 协同 灾区 政府 救灾 特别 机 构 ， 派 遗 
足够 的 运输 车 辆 将 救灾 物资 运 抵 灾区 。 


N 该 简化 场景 中 需要 协同 的 部 门 及 其 承担 的 角色 如 下 表 所 示 : 
- 表 1: 救灾 涉及 部 门 及 其 职能 
部 门 名 称 职能 
> 红 十 字 会 应 急 办 公 室 。 负责 指挥 整个 救灾 过 程 ， 协 同 其 他 部 门 完成 救灾 流程 
- 红 十 字 会 备 灾 部 门 管理 红 十 字 会 仓库 ， 根 据 灾 情 需要 出 库 救灾 物资 
C 红 十 字 会 救援 部 门 ”派遣 救援 队 救助 灾民 ， 并 根据 灾情 进展 上 报 需 要 的 救灾 物资 


- 灾区 政府 特别 机 构 派 遗 运输 车 辆 将 救灾 物资 运 抵 灾区 


一 


作为 整个 救灾 过 程 的 指挥 者 , 红 十 字 会 应 急 办 公 室 需要 及 时 得 到 全 面 、 准确 的 灾情 情报 
和 物资 需求 清单 ; 优化 利用 有 限 的 物资 ， 发 挥 物资 的 最 大 价值 ; 监控 物资 流动 状态 ， 确 保 最 
快 将 物资 合理 发 放 到 最 需要 的 灾民 手中 。 为 了 达成 上 述 目 标 , 应急 办 需要 灵活 地 协同 不 同 部 
门 的 业务 流程 ， 来 完成 及 时 、 合 理 的 调配 救灾 物资 的 过 程 。 但 是 ， 由 于 灾情 的 突 发 性 、 多 变 
性 、 复 杂 性 ， 协 同 过 程 需要 应 对 以 下 挑战 。 
e 为 了 及 时 作出 正确 的 物资 分 配 决 策 ， 应 急 办 需要 及 时 了 解 关 键 业 务 数据 的 变化 情 
况 ， 而 这 些 关 键 业务 数据 很 多 都 是 隐藏 在 其 他 部 门 自身 业务 流程 中 的 。 
e ”应急 办 不 仅 需要 获取 不 同业 务 流程 后 隐藏 的 业务 数据 , 有 可 能 还 需要 快速 汇聚 这 些 
数据 ， 对 其 进行 分 析 ， 并 根据 分 析 的 结果 进行 决策 。 
e 灾情 信息 的 复杂 多 变 导致 应 急 办 难以 预先 构建 一 个 能 满足 需求 的 完整 的 业务 流程 。 
应 急 办 往往 需要 根据 业务 数据 的 变化 〈 如 最 新 灾情 信息 、 物 资 库存 信息 、 车 辆 调配 
信息 等 ) 才能 决定 下 一 步 需要 采取 的 行动 。 


5.2 ProData: 云 计 算 环 境 下 以 数据 为 中 心 的 应 用 集成 工具 
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VINCA ProData: 云 计算 环境 下 以 数据 为 中 心 的 应 


集成 工具 


为 了 应 对 上 述 挑战 ， 我 们 开发 了 一 种 云 环境 下 以 数据 为 中 心 的 应 用 集成 工具 VINCA 


ProData。 它 主要 包括 两 部 分 : 
模 工 具 、 以 及 数据 获取 、 加 工 模块 ; 


务 流程 执行 引擎 以 及 业务 流程 监控 工具 。 使 用 VINCA ProData 应 急 集 成 工具 解决 5.1 1 


一 个 是 数据 集成 部 分 ， 包 括 数据 对 象 


= 一 由 


个 是 业务 流程 管理 模块 ， 包 括 业 务 流 


建 模 和 关键 性 能 指标 奸 
程 建 模 工具 、 业 


的 实际 问题 ， 通 常 可 以 分 为 以 下 几 个 关键 步 又 : 


1. 数据 对 象 建 模 


所 述 


为 了 支持 红 十 字 会 的 指挥 者 在 流程 运行 的 每 一 步 过 程 中 , 实时 地 查看 关键 数据 , 我 们 提 
出 了 数据 对 象 的 概念 ,并 采用 堪 套 表 作为 数据 对 象 的 基本 结构 。 上 述 场景 可 以 建立 如 下 三 个 
数据 对 象 ， 
- JR e 事件 
BEN o| Ag | AE | No | XE | 需求 数量 | 现 有 数量 | No | T |AN 
Z Rel 
Jg 生存 数量 
仓库 > 库存 数量 o | KE 数量 状态 
运输 车 地 理 位 置 物资 
no 经 度 纬度 No 类 型 数量 
图 2 数据 对 象 模型 


其 中 救援 队 属于 红 十 字 会 救援 部 门 , 仓库 属于 红 十 字 会 备 灾 部 门 , 运输 车 属于 灾 


的 政府 特别 机 构 。 


1 于 这 些 数 据 对 象 的 数据 源 可 能 来 自分 布 在 不 同 部 门 


所 以 我 们 需要 进行 数据 的 获取 、 加 工 。 数 据 对 象 建 模 工具 主要 由 各 部 门 


区 当地 
的 数据 库 或 者 文件 ， 
的 IT AREH, X 


里 采用 两 边 定义 -中 间 汇 聚 的 方式 为 数据 对 象 建 模 ， 其 中 的 两 边 是 指 面向 业务 领域 的 数据 对 
象 和 面向 IT 领域 的 分 布 的 数据 源 ， 中 间 汇 聚 是 指数 据 的 映射 和 转换 。 


2. 


关键 性 能 指标 建 模 


为 了 让 红 十 字 会 指挥 者 实时 看 到 他 们 关心 的 关键 性 能 指标 , 我 们 提出 了 关键 性 能 指标 建 
模 , 这 里 关键 性 能 指标 是 以 数据 对 象 为 操作 数 的 集合 或 数字 计算 公式 ,在 类 似 电子 表格 的 编 


程 环境 中 进行 计算 ， 并 且 能 够 通过 图 / 表 的 方式 呈现 。 该 场景 中 包含 如 下 关键 性 能 指标 : 
统计 (救援 队 . 物 资 (帐篷 、 方 便 面 和 水 ). 需 求 数量 )， 
统计 (救援 队 . 物 资 (帐篷 、 方 便 面 和 水 ). 现 有 数量 )， 
统计 (救援 队 ) 

3. 制订 业务 规则 


表 2: 业务 规则 及 触发 的 流程 预案 


业务 规则 编号 业务 规则 内 容 
规则 1 救援 队 .事件 .经 度 >0&& 救 援 队 . 事 件 .纬度 >0 一 一 级 救援 流程 预案 
规则 2 救援 队 .事件 .经 度 >0&& 救 援 队 .事件 .纬度 >0 一 二 级 救援 流程 预案 
规则 3 救援 队 . 物 资 (帐篷 、 方 便 面 和 水 ). 需 求 数量 > 救援 队 . 物 资 (帐篷 、 方 便 面 和 


为 了 能 够 实时 捕捉 到 关键 怕 


水 ). 现 有 数量 一 A 库 物资 出 库 流程 预案 


们 通过 业务 规则 定义 事件 触发 的 流程 预案 。 这 些 业务 规则 通过 基于 
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E 能 指标 的 数据 变化 ,支持 跨 部 门 的 流程 之 间 的 动态 协作 , 我 


事件 代数 的 组 合算 子 得 


第 9 卷 第 1 HH 


信息 技术 快报 


Vol.9 No.1 


Information Technology Letter 


到 ， 并 且 能 够 自动 转换 成 事件 处 理 语言 EPL(Esper'" Processing Language), SKH) 


Jan. 2011 


能 指标 的 数据 变化 。 表 2 是 该 场景 中 的 部 分 业务 规则 。 


4. ”编排 业务 流程 


各 部 门 的 业务 人 员 编 排 业 务 流 
程 ， 在 该 场景 中 包括 红 十 字 会 救援 部 
门 、 红 十 字 会 备 灾 部 门 和 灾区 政府 特 
别 机 构 三 个 部 门 的 业务 流程 。 由 于 灾 
区 政府 熟悉 当地 路 况 信息 ， 所 以 运输 
流程 由 灾区 政府 组 织 的 特别 机 构 负 


资 管理 过 程 中 进行 无 中 心 控制 的 动态 
协作 ， 共 同 完 成 应 急 物 资 的 调配 和 发 
放 工 作 。 


5. ”用 户 临 机 决策 


当 关 键 性 能 指标 的 变化 满足 业务 
规则 设 定 的 条 件 时 ， 相 应 事件 被 红 十 
字 会 决策 中 心 捕获 ， 红 十 字 会 指挥 者 
结合 数据 对 象 的 数据 ， 对 该 事件 进行 
分 析 ， 从 业务 规则 的 预案 中 临 机 决策 
执行 哪 一 个 流程 ， 如 图 3 所 示 。 例 如 ， 
由 于 救援 队 到 达 现 场 后 需要 大 量 物 
资 ， 红 十 字 会 指挥 者 结合 A 仓库 和 B 
仓库 的 库存 量 ， 选 择 执行 A 库 物 资 出 
库 流 程 预案 。 并 且 在 调运 运输 队 时 ， 


6 RE 


近年 来 ， 随 着 云 计算 的 兴起 ,传统 的 企业 应 用 集成 系统 面临 升级 问题 。 


事件 捕 
获 、 分 析 


关键 数据 


业务 流程 


和 捉 关 键 性 


= 
TERT. X opea 


m 


根据 各 个 运输 队 的 位 置信 息 ， 将 物资 合理 最 快 地 发 放 到 最 需要 的 灾民 手中 。 


2 
RA 
^ 4 二 
流程 的 执行 
改变 数据 
数据 KPI 变化 
Xi Xx 分 配 情况 
类 型 量 
类 型 库存 数量 TEGREAT OR 
1 | 纯净 水 库存 数量 -ea | 1S0 
四 II 
车 号 地 理 位 置 物资 
经 度 | 纬度 类 型 | 数量 
1 |Truck0| 1 |9702| 33.1 j UK 50 
2 |Tuckl| 1 | 96 [32926 i UK zeo 
救援 队 地 理 位 置 物资 
[ees 经 度 | 纬度 类 型 | 需求 数量 | 现 有 数量 
1 [Teamo] 1 |97014|33.002 i n peo 3 
2 Teaml| 1 |97.011| 33.001 ink d po 
E = 
图 3. 业 务 流程 的 动态 协作 
| 于 传统 服务 计 


算 研究 工作 中 却 往往 忽视 数据 共享 和 数据 流 , 使 得 现 有 的 企业 应 用 集成 系统 在 云 计算 环境 下 
处 理 数据 密集 型 应 用 时 , 面临 着 诸多 的 挑战 。 本文 分 析 了 企业 应 用 集成 系统 在 云 计算 环境 下 
数据 集成 以 及 业务 流程 建 模 方 面 遇 到 的 两 大 问题 ， 


以 用 户 为 中 心 的 数据 服务 组 合 、 数 据 驱 动 的 业务 流程 建 模 等 技术 进行 了 分 析 。 最 


H 


E 点 对 云 计 算 环境 下 的 数据 资源 服务 化 、 


后 ， 以 一 个 


应 急 物 资 管理 场景 为 例 ， 介 绍 了 一 种 云 计算 环境 下 以 数据 为 中 心 的 应 用 集成 工具 ----VINCA 


ProData。 在 未 来 的 工作 中 ， 我 们 将 进 


步 对 云 计 算 环 境 下 以 数据 为 


服务 建 模 、 数 据 服 务 组 合 、 流 程 建 模 及 优化 等 方面 的 科学 问题 进行 研究 。 


FP 心 的 应 用 集成 中 数据 


10 Esper 是 一 个 事件 流 处 理 (Event Stream Processing, ESP) 和 复杂 事件 处 理 (Complex Event Processing, 


CEP) 系统 ， 可 以 监测 事件 流 并 在 特定 事件 发 生 时 触发 茶 些 行动 
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